Rank in Wordlist | Word | Rank in Wordlist | Word |
---|---|---|---|
1 | bir | 26 | o |
2 | ve | 27 | nin |
3 | da | 28 | ama |
4 | bu | 29 | yeni |
5 | de | 30 | ın |
6 | için | 31 | iyi |
7 | Bu | 32 | ilk |
8 | ile | 33 | ya |
9 | çok | 34 | olduğu |
10 | olarak | 35 | göre |
11 | daha | 36 | yıl |
12 | gibi | 37 | son |
13 | olan | 38 | zaman |
14 | kadar | 39 | önemli |
15 | .. | 40 | Bir |
16 | en | 41 | iki |
17 | ise | 42 | devam |
18 | ne | 43 | içinde |
19 | Türkiye | 44 | Başkanı |
20 | her | 45 | diye |
21 | sonra | 46 | tarafından |
22 | değil | 47 | in |
23 | ki | 48 | bile |
24 | büyük | 49 | Türk |
25 | olduğunu | 50 | var. |
The table shows the top-50 words of the corpus. Usually we see stopwords.
Language: Afrikaans
This list is a good candidate for a first stopword list for a language.
Usually a small, balanced corpus is enough to get a good list of high frequent words. But if the small corpus has some very prominent topic, this will be visible even in the top word lists.
select w_id-100 as rank_in_wordlist, word from words where w_id>100 order by w_id limit 50;
3.4 Sample words for different frequency ranges